1.机器学习是什么?
机器学习实际上就是以数据为基础,发现数据之间本来存在而没有被发现的规律,它的一个重要特征就是尽量避免人的参与,尝试直接从数据中发现规律和解决问题的方案。
2.机器学习基础概念
2.1 机器学习类型
2.1.1有监督学习
用来学习的数据有明确的含义,机器根据数据及其含义学习,把数据称为“特征值”, 数据的含义称为“标签”
典型应用比如分类 ,回归
2.1.2无监督学习
指用来学习的数据没有明确的含义
典型应用比如异常检测,分类
2.1.3半监督学习
部分数据是有含义的
2.1.4强化学习
它在解决问题的时候不断实践,在实践中探索尝试,然后总结出比较好的策略。比如阿尔法围棋就是这样去做的
2.2数据集划分
数据集收集好后,我们不会把他们全部用于训练,好比题库我们有一百道题,老师给我们讲九十道题,剩下十道题进行训练测试,检验我们的学习效果。
机器学习也是如此
- 训练数据:又称训练集,是训练模型时使用的数据,使用训练集来生成模型,用于学习参数
- 验证数据:又称验证集,用于选择超参数,用来评估与选择模型
- 测试数据: 又称测试集 ,测试集来测试模型的评估泛化能力
比如我们将数据分成A,B,C,D,E 五组,其中E做测试组,其余组做训练组。
在数据很少的情况下,我们也可以采用交叉验证的方法,也就是第一次训练用E组测试,其余组训练,第二次训练用D组测试,其余组训练……
2.3模型拟合
模型拟合方式可能存在着三种情况
拟合良好
既能够很好的拟合训练数据,又能够很好的预测测试数据
过拟合
能够非常好的拟合训练数据,但对测试数据的预测很差
欠拟合
不能够很好的拟合训练数据,也不能用来预测测试数据
我们要避免过拟合和欠拟合情况发生
可以做这样一个例比,小晓调到了一个新的部门上班,这个部门有30人,他不知道在这个新部门的工资是多少钱,如果他把这个部门的30个人都问一遍,那么预测自己的工资大概率是准确的,这时候我们说他是拟合良好,而他只问身边一两个人就预测自己的工资,大概率是不准确的,此时是欠拟合,如果他问了整个公司4000人的工资,又过拟合,这时候对于自己工资的预测也是不准确的。
2.4 性能度量
2.4.1 二分问题的性能度量
准确率
查全率
2.4.2 其他性能度量
方差 相同规模不同训练数据产生的差别
偏差 模型输出与真实值的差别